实验案例
LangChain 实验
同一个模型,只改 Harness (`・ω・´)
实验条件 (。・ω・。)
GPT-5.2-Codex
同一个模型 (`・ω・´)
模型参数
一个都没动
不微调、不换模型 (。ŏ_ŏ)
只改变
外部工程环境
只改 Harness (。・∀・)ノ゙
Terminal Bench 2.0 成绩
改之前
52.8%
改之后
66.5%
提升
13.7
个百分点 ✧*。٩(ˊᗜˋ*)و✧*。
排名飞跃 (。・ω・。)ノ
30+
名开外 (´;ω;`)
Top 5
前 5 名 ✧(≖ ◡ ≖✿)
换模型
只改
Harness
模型不变,成绩巨变 ✧*。٩(ˊᗜˋ*)و✧*。